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摘 要 : [目的 /意义 ] 


侧 视 为 主 。 然 而 ， 侧 视 视 角 存 在 着 难以 消除 的 遮挡 问题 。 
出 一 种 基于 时 空 流 特 征 融合 的 俯视 视角 下 奶牛 跨行 检测 方法 。 首 先 ， 通 过 分 析 深 度 视频 流 中 跨行 奶牛 在 运动 过 程 
中 的 位 姿 变 化 ， 构 建 空间 流 特征 图 像 序列 。 通 过 分 析 踊 行 奶 牛 行走 时 躯体 前 进 和 左右 摇摆 的 瞬时 速度 ， 利 用 光 流 
捕获 奶牛 运动 的 瞬时 速度 ， 构 建 时 间 流 特征 图 像 序列 。 将 空间 流 与 时 间 流 特征 图 像 组 合 构建 时 空 流 融合 特征 网 像 


奶牛 跨行 检测 是 规模 化 奶牛 养殖 过 程 中 蝇 待 解决 的 重要 问题 ， 现 有 方法 的 检测 视角 主要 以 
本 研究 主要 解决 侧 视 视角 下 存在 的 遮挡 问题 。 


[方法 ] 提 


序列 。 其 次 ， 利 用 卷 积 块 注意 力 模 块 (Convolutional Block Attention Module, CBAM) 改进 PP-TSMv2 (PaddlePad- 


dle-Temporal Shift Module v2) 


视频 动作 分 类 网 络 ， 构 建 奶牛 跨行 检测 模型 Cow-TSM (Cow-Temporal Shift Module ) 。 
最 后 ,分 别 在 不 同 输入 模 态 、 不 同 注意 力 机 制 、 不 同 视频 动作 分 类 网 络 和 现 有 方法 4 个 方 孟 


i 对 比 ， 进 行 奶牛 跨行 


实验 ， 以 探究 所 提出 方法 的 优 劣 性 。[ 绪 果 和 讨论 ] 共 采集 人 处理 了 180 段 奶牛 图 像 序列 数据 ， 跋 行 奶牛 与 非 跋 行 奶 


牛 视频 段 数 比例 为 1 : 1， 所 提出 模型 识别 精度 达到 88.7%， 模 型 大 小 为 22 M， 离 线 推理 时 间 为 0.046 s。 与 主流 视 
频 动作 分 类 模型 TSM、PP-TSM 、PP-TSMv2 SlowFast 和 TimesFormer 模 型 相 比 ， 综 合 表 现 最 好 。 同 时 ， 以 时 空 流 
融合 特征 图 像 作为 输入 时 ， 识别 精度 分 别 比 单 时 间 模 态 与 单 空间 模 态 分 别提 升 12% 与 4.1%， 证明 本 研究 中 模 态 融 


合 的 有 效 性 。 通 过 与 通道 注意 力 (Squeeze-and-Excitation, SE)、 卷 积 核 注意 力 (Selective Kernel, SK) 、 坐 标注 意 力 
(Coordinate Attention, CA) 与 CBAM 不 同 注意 力 机 制 进行 消融 实验 ,证 明 利 用 CBAM 注意 力 机 制 构建 奶牛 跨行 检测 
模型 效果 最 佳 。 最 后 ， 与 现 有 跨行 检测 方法 进行 对 比 ， 所 提出 的 方法 同时 具有 较 好 的 性 能 和 实用 性 。[ 绪 论 ] 本 研 


究 能 够 避免 侧 视 视角 下 检测 踊 行 奶牛 时 出 现 的 遮挡 问题 ， 


意义 ， 符 合 牧场 规模 化 建设 的 需求 。 


对 于 减少 奶牛 跨行 发 生 率 、 提 高 牧场 经 济 效 益 具 有 重要 
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0 引 Ë 

在 推进 奶牛 的 智能 化 和 现代 化 养殖 过 程 中 ， 奶 
牛 幢 行 发 病 率 的 提高 成 为 了 阻碍 奶牛 健康 生长 和 产 
奶 量 提高 的 重要 原因 之 一 "”， 其 至 被 认为 是 影响 
奶牛 动物 福利 进而 影响 牧场 生产 力 的 最 严重 问题 之 
一 扎 。 当 奶牛 出 现 玻 行 病情 时 ， 奶 牛 会 因为 剧烈 疼 
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痛 导 致 行走 时 蹄 子 着 地 困难 ， 影 响 其 正常 行走 、 采 
食 和 挤 奶 ， 最 终 导致 产 奶 水 平和 繁殖 能 力 下 降 ， 
造成 青年 奶牛 的 过 早 淘汰 。 因 此 ， 及 时 发 现 并 治疗 
奶牛 踊 行 可 以 最 大 限度 地 减轻 奶牛 身体 疼痛 ， 减 少 
牧场 经 济 损 失 “”。 与 人 工 观察 相 比 ， 基 于 计算 机 
视觉 的 奶牛 跨行 检测 方法 可 长 时 间 在 非 结 构 化 环境 
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中 工作 ， 并 且 工 作 效 率 高 ， 能 够 有 效 降低 人 工 成 
本 ， 这 也 是 未 来 奶牛 踊 行 检测 发 展 的 主 趋势 "。 目 
前 ， 通 过 计算 机 视觉 的 奶牛 跨行 检测 方法 从 检测 视 
角 上 主要 分 为 两 大 类 。 

第 1 类 为 侧 视 视 角 。 通 带 是 定位 奶牛 蹄 子 、 埋 
部 脊柱 、 头 贷 和 头 部 等 关键 区 域 进 行 单一 特征 或 联 
动 特征 融合 来 实现 奶牛 跋 行 检测 下"。Wu 等 "" 提 
出 一 种 基于 YOLO (You Only Look Once) v3 深度 
学 习 算 法 和 相对 步 长 特征 向 量 的 奶牛 由 行 检测 技 
术 。 首 先 根据 YOLOv3 网 络 定位 奶牛 的 四 上肢， 将 前 
后 上 肢 的 质心 距离 变化 提取 成 特征 向 量 ， 再 输送 给 长 
短期 记忆 网 络 (Long Short-Term Memory, LSTM) 
网 络 进行 踊 行 预测 。 由 于 足 行 奶牛 需要 马 背 来 负担 
发 生 踊 行 病情 时 行走 过 程 中 的 疼痛 ， 因 此 足 行 奶牛 
的 背部 弯曲 程度 往往 偏 大 。Jiang 等 ”提出 了 一 种 
基于 深度 学 习 方 法 的 计算 背部 曲率 的 奶牛 跨行 识别 
技术 。 首 先 通过 目标 检测 定位 出 奶牛 背部 区 域 ， 然 
后 通过 帧 间 差 分 法 提取 出 去 除 背 景 的 奶牛 背部 疹 柱 
区 域 ， 通 过 三 点 圆 法 计算 出 奶牛 背部 的 曲率 并 作为 
特征 值 ， 输 送 给 双向 长 短期 记忆 (Bidirectional 
Long Short-Term Memory, BiLSTM) 网 络 进 行 训 练 ， 
得 到 跨行 与 非 跨行 奶牛 的 二 分 类 结果 ， 在 567 段 视 
频 上 的 分 类 精度 达到 96.61%。 跋 行 奶牛 行走 时 蹄 部 
往往 由 于 疼痛 承重 能 力 下 降 而 导致 步 态 不 规律 性 。 
Kang 等 ' 提出 了 一 种 奶牛 跨行 检测 方法 ， 通 过 降 
维 的 基于 牛 腿 位 置 的 时 空 图 像 ， 保 留 步 态 信息 ， 使 
用 DenseNet 算 法 根据 时 空 图 像 进行 踊 行 分 类 ， 精 度 
达到 了 98.5%。Zheng 等 提出 一 种 挛 生 注意 力 模 
型 来 实现 奶牛 腿 部 自动 跟踪 ， 通 过 注意 力 机 制 预测 
后 续 帧 的 牛 腿 的 位 置 ， 并 利用 牛 腿 坐 标 计算 相对 步 
长 ， 利 用 支持 向 量 机 (Support Vector Machine, 
SVM) 模型 实现 奶牛 跨行 分 类 。Li 等 ”提出 了 一 
种 利用 微小 运动 特征 的 时 空 聚合 网 络 ， 通 过 设计 的 
模块 捕捉 奶牛 运动 时 的 微小 运动 特征 和 时 空 特征 来 
进行 奶牛 早期 跋 行 的 识别 。 针 对 奶牛 跨行 的 步 态 不 
对 称 性 ，Li 等 '* 提出 了 一 种 基于 RGB、 光 流 和 骨 
骼 等 多 种 特征 的 奶牛 跋 足 检测 方法 ， 根 据 不 同 的 输 
入 将 网 络 分 为 3 个 分 支 : 对 于 分 支 1 和 分 支 3， 使 用 
卷 积 神经 网 络 (Convolutional Neural Networks, 
CNN) 根据 输入 图 像 和 光 流 预测 跋 行 ; 对 于 分 
支 2， 使 用 时 空 图 卷 积 网 络 用 于 根据 奶牛 的 骨骼 预 
ME; 最 后 调整 权重 ,融合 这 3 个 分 支 的 预测 分 
数 ， 最 佳 准确 度 达 到 了 97.2%。 然 而 ， 奶 牛 在 牧场 
中 的 运动 往往 是 成 群 结 队 地 行走 ， 当 和 多头 奶牛 并 排 


行走 时 ， 远 离 相 机 一 侧 的 奶牛 由 于 被 其 他 奶牛 或 者 
栏杆 遮挡 从 而 导致 相机 无 法 有 效 地 捕获 相应 的 图 
像 。 因 此 ， 在 牧场 环境 下 侧 视 视角 检测 跨行 奶牛 时 
出 现 的 遮挡 问题 ， 是 阻碍 检测 方法 应 用 的 主要 原因 
之 

第 2 类 为 俯视 视角 。 通 过 重建 背部 提取 奶牛 疹 
柱 或 单 模 态 运动 信息 来 进行 跋 行 的 识别 。Abdul 
等 5 提出 了 一 种 俯视 视角 下 的 基于 3D 相机 的 奶牛 
步 态 特征 距 行 检测 技术 ; 定位 奶牛 后 上 及 两 处 的 髋 关 
节 和 状 柱 中 心 点 ,分别 将 髋 关节 的 深度 值 与 准 柱 中 
心 点 深度 值 作 差 ， 提 取 深 度 差 值 运动 曲线 进行 正 臣 
拟 合并 进行 希 尔 伯 特 变换 ， 通 过 不 同 曲线 的 相位 差 
来 表征 不 同 跋 行程 度 的 奶牛 ; 在 22 头 奶牛 的 数据 
集 上 达到 了 95.7% 的 精度 。Arazo 等 "9 提出 了 一 种 
基于 RGB 和 深度 视频 分 割 增强 奶牛 跨行 检测 的 技 
术 ; 首先 使 用 带 有 ResNeXT 网 络 的 特征 金字 塔 
(Feature Pyramid Networks, FPN) 网 络 作 为 分 割 模 
型 ， 然 后 使 用 SlowFast 视 频 分 类 模型 直接 处 理 输入 
视频 ， 再 将 输出 特征 输 给 分 类 器 模型 去 实现 足 行 与 
韭 跋 行 的 二 分 类 。 然 而 ， 现 有 的 基于 俯视 视角 下 的 
奶牛 跨行 检测 研究 较 少 ， 主 要 通过 单一 的 模 态 特征 
与 姿态 特征 提取 的 方法 进行 检测 ， 但 俯视 视角 下 的 
奶牛 跨行 特征 并 不 明显 ， 单 一 模 态 很 难 完 整 表 达 奶 
牛 运动 信息 。 

本 研究 利用 深度 图 像 研 究 俯视 视角 下 的 奶牛 趾 
行 检测 方法 。 首 先 ， 通 过 提取 时 空 流 融合 特征 以 充 
分 表达 俯视 视角 下 跨行 奶牛 的 运动 信息 ; 其 次 ， 利 
用 提出 的 奶牛 跨行 检测 模型 Cow-TSM (Cow- Tem- 
poral Shift Module) 对 时 空 流 融合 特征 图 像 序列 进 
行 特 征 提 取 与 分 类 ， 以 检测 奶牛 是 否 跨行 ; 最 后 ， 
对 本 研究 提出 方法 的 有 效 性 进行 详细 的 实验 与 分 
析 。 由 于 早期 中行 的 奶牛 跨行 特征 较 不 明显 ， 并且 
俯视 视角 下 奶牛 跨行 特征 与 侧 视 视角 相 比 ， 提 取 难 
度 较 高 ， 因 此 ， 本 研究 的 方法 主要 以 检测 跨行 程度 
较 高 的 奶牛 为 主 。 
1 材料 与 方法 
1.1 数据 采集 与 标注 


本 研究 的 实验 数据 分 别 于 2022 年 7 月 和 2023 
年 8 月 在 黑龙 江 省 大 庆 市 林 向 县 蝶 康 牧 业 牧 场 采 
集 。 采 集 区 域 主要 有 两 处 : 分 别 是 位 于 挤 奶 厅 中 的 
靠近 挤 奶 区 域 的 挤 奶 厅 通道 (图 1)， 以 及 从 牛 舍 到 
挤 奶 厅 途 中 一 段 宽 通道 (图 2)。 摄 像 头 在 挤 奶 厅 中 
的 通道 采集 时 距离 地 面 2.8 m， 利 用 1.0 m 和 0.5 m 
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长 的 铝 型 材 搭 建 采集 架 ， 将 采集 架 固 定 在 喷 淋 管道 
上 ; 同时 在 一 侧 的 窗户 处 放置 倾斜 45° 视 角 的 第 2 
摄像 头 用 来 辅助 对 视频 数据 进行 标注 。 在 位 于 牛 舍 
去 往 挤 奶 厅 的 宽 通 道 处 的 摄像 头 距离 地 面 高 度 为 
3.0 m， 由 于 通道 较 宽 ， 故 同时 放置 3 个 摄像 头 进行 
同步 采集 ， 每 个 摄像 头 间 阳 1.0 m， 摄 像 头 直接 用 
扎 带 拥 绑 在 喷 淋 管道 上 ， 并 在 一 侧 窗户 处 水 平 放置 
一 个 摄像 头 用 来 辅助 对 视频 数据 进行 标注 。 两 次 采 
集 所 使 用 的 次 度 摄像 头 为 ntel RealSense D435, VR 
度 图 像 的 像素 分 辨 率 均 为 848X480， 帧 率 为 60 fps. 


信 视 深度 摄像 头 


a. 采集 摄 像 头 安装 位 置 
介 视 深度 摄像 类 “辅助 标签) 


| 

b. 辅助 摄像 头 安装 位 置 

图 1 撞 奶 厅 通道 采集 图 
Fig. 1 Collection diagram of milking parlor passage 
通道 1 和 通道 2 两 个 场景 下 的 奶牛 行走 视频 经 
过 处 理 后 ， 用 于 奶牛 跨行 的 数据 共 包 括 180 段 奶牛 
行走 视频 流 ， 每 段 视频 分 解 成 100~400 帧 不 等 ， 距 
行 奶牛 和 正常 奶牛 的 视频 段 数 比 例 为 1 : 1。 如 图 3 
所 示 ， 图 像 经 过 微调 的 YOLOv7 "目标 检测 模型 
提取 奶牛 坐标 后 ， 将 非 奶 牛 区 域 像素 点 置 0， 而 不 
是 将 奶牛 裁剪 ， 这 是 为 了 保留 图 像 序列 中 奶牛 运动 
时 的 空间 信息 。 利 用 YOLOv7 模 型 裁剪 奶牛 可 以 避 
免 俯视 视角 下 同一 时 刻 中 存在 多 头 奶牛 时 对 目标 奶 
牛 的 干扰 ， 同 时 ， 当 奶牛 头 部 发 生 部 分 重 到 时 由 于 
重合 面积 较 小 ， 对 后 续 实 验 结果 影响 较 小 。 

深度 视频 帧 按照 Kinetics-400 数据 集 ' ”的 格 

式 要 求 进行 标注 。 最 后 ， 以 每 段 视频 为 基准 ， 按 
照 8 : 2 的 比例 随机 划分 训练 集 和 测试 集 。 


b. 采集 摄像 头 安装 位 置 
图 2 通 往 挤 奶 厅 宽 通道 采集 图 
Fig. 2 Collection diagram of the wide passage leading to the 
milking parlor 


b. 非 跨行 奶牛 
图 3 距 行 奶牛 与 非 跨行 奶牛 深度 图 像 序列 


Fig. 3 Depth image sequences of lame dairy cows and 


non-lame dairy cows 


1.2 技术 路 线 


跋 行 奶 牛 行走 过 程 中 ， 由 于 患 病 肢 蹄 的 疼痛 会 
导致 鹏 体 在 垂直 方向 上 的 运动 出 现 不 规律 性 。 此 
外 ， 病 蹄 的 疼痛 也 会 导致 行走 时 较为 谨慎 ， 步 伐 较 
小 ， 且 身体 也 会 出 现 不 同 程度 的 左右 播 押 。 本 研究 
从 上 述 两 方面 典型 跨行 特征 开展 研究 ， 技 术 路 线 图 
如 图 4 所 示 。 首 先 提取 奶牛 时 空 流 融 合 图 像 序列 ， 
利用 YOLOv7 目标 检测 模型 检测 后 的 奶牛 跋 行 深度 
流 分 为 两 个 分 支 : 分 支 1 使 用 FlowNet 2.0 网 络 进行 
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光 流 图 像 序列 提取 ， 获 得 时 间 流 特征 图 像 序列 ; 分 
支 2 通 过 深度 图 相 邻 帧 作 差 提取 深度 差 值 图 像 ， 获 
得 空间 流 特征 图 像 序列 。 然 后 将 时 间 流 与 空间 流 进 
iy ane 


奶牛 跨行 
检测 模型 构建 


DW SP Conv 


DW SP Conv 


Shortcut 


行 融 合 ， 获 得 时 空 流 融 合 图 像 序 列 。 利 用 时 空 流 融 
合 图 像 序 列 作为 输入 ， 构 建 奶 牛 跨行 检测 模型 
Cow-TSM， 并 进行 奶牛 跨行 检测 。 


Global Average 
Pooling 
Cony 1X1 
Global Average 
Pooling 


图 4 时 空 流 特征 融合 方法 技术 路 线 


Fig. 4 Technical route of spatiotemporal flow feature fusion method 


1.3 时 空 流 融合 图 像 序 列 生成 

时 间 流 特征 提取 
光 流 能 够 有 效 地 提取 出 二 维 图 像 中 奶牛 的 平面 
位 移 信息 。 足 行 奶牛 在 运动 时 ， 由 于 步 态 的 不 平衡 
性 会 导致 步 长 较 小 ,整体 运动 缓慢 ， 像 素 点 运动 位 
移 距 离 会 和 正常 奶牛 出 现 一 定 的 区 别 。 同 时 ， 踊 行 
奶牛 在 行走 时 左右 摆动 的 幅度 也 会 随 着 时 间 推 移 产 
生 一 定 的 变化 ， 这 些 位 移 变 化 特征 都 可 以 通过 光 流 
进行 有 效 提 取 ， 因 此 ， 本 研究 从 二 维 奶牛 图 像 中 的 
光 流 信息 中 提取 出 时 间 流 特征 。 

基于 传统 方法 的 光 流 估计 已 经 较为 成 熟 ， 常 见 
的 稠密 光 流 提取 算法 包括 Farneback 算法 '” 和 
Horn-Schunck 算 法 '” 等; 稀 玖 光 流 提取 算法 包括 
Lucas-Kanade 算 法 2 等 。 但 这 些 方法 都 有 恒定 的 
假设 : 图 像 亮度 不 变 且 物 体 运 动 缓慢 。 在 实际 生产 
环境 中 ， 这 些 因素 都 是 不 可 控 的 ， 因 此 传统 方法 的 
鲁 棒 性 受到 极 大 的 限制 。 此 外 ， 为 了 提取 更 多 的 特 
征 ， 提 取 稠 密 光 流 是 可 行 的 ， 然 而 稠密 光 流 的 提取 
计算 较为 复杂 ， 时 效 性 较 差 。 基 于 深度 学 习 的 光 流 
提取 算法 对 于 图 像 特 征 的 处 理 更 加 灵活 ， 在 假设 提 
出 条 件 更 少 的 前 提 下 ，CNN 的 层级 架构 能 够 提取 


1.3.1 


更 抽象 、 更 深入 和 多 尺度 的 特征 ， 并 且 计 算 速 度 
BR), 

本 研究 选用 经 典 的 FlowNet 2.0 网 络 °°) 进行 光 
流 提取 。FlowNet 2.0 总 体 结 构 如 图 5 所 示 。 主 体 网 
络 利 用 FlowNetS FlowNetCorr #0 FlowNet-SD 进行 
网 络 堆 又 并 构成 双 分 支 ， 上 面 的 分 支 用 来 堆积 成 大 
位 移 网 络 提 取 大 位 移 特 征 ， 下 面 的 分 支 组 成 小 位 移 
网 络 进行 小 位 移 的 预测 。FlowNetS 由 CNN 卷 积 模 
块 构成 ， 接 收 两 个 RGB 图 像 进 行 有 监督 训练 。 
FlowNetCorr 与 FlowNetS XW, 不同 的 是 其 首先 创 
建 两 个 相同 的 网 络 分 支 ， 在 网 络 的 高 层 中 的 关联 层 
进行 计算 相关 性 并 把 两 分 支 进 行 合 并 。FlowNet-SD 
拥有 更 大 尺寸 的 输入 特征 图 。 在 每 个 子 网 络 后 ， 光 
流 被 扭曲 并 且 会 和 第 2 张 图 像 进 行 比 较 ， 计 算得 到 
的 误差 在 经 过 其 他 大 位 移 子 网 络 后 ， 最 终 输送 给 融 
合 网 络 中 。 将 估计 的 光 流 、 光 流 的 幅度 和 经 过 扭曲 
后 的 亮度 差 作为 输入 ， 融 合 网 络 会 进行 收缩 并 尺度 
Pak, 产生 最 终 的 光 流 。 
1.3.2 ”空间 流 特征 提取 

跨行 奶牛 在 正常 行走 时 ， 由 于 患 病 肢 蹄 部 位 带 
来 的 疼痛 ， 会 出 现 不 同 程度 的 点 头 、 肢 蹄 落地 位 置 
分 布 不 均 和 躯体 运动 不 平衡 等 特征 来 抵消 痛苦 。 在 
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Ce Hah | 
图 像 2 


图 像 1 H 


图 像 2 


图 5 FlowNet 2.0 网络 架构 
Fig. 3 Network structure diagram of FlowNet 2.0 


俯视 视角 下 ， 上 述 特征 主要 体现 为 奶牛 运动 过 程 中 
躯体 高 低 起 伏 的 不 规律 性 。 深 度 图 反映 了 奶牛 距 相 
机 的 距离 ， 为 了 捕获 跨行 奶牛 在 运动 时 高 低 起 伏 的 
运动 特征 ， 将 相 邻 两 帧 深度 图 作 差 ， 深 度 的 差 值 反 
映 了 相 邻 帧 的 奶牛 在 高 度 上 的 步 态 变化 。 将 相 邻 两 
帧 深度 图 像 利 用 OpenCV 库 中 的 subtract( ) 函 数 进行 
逐 像素 减法 ， 在 像素 相 减 如 果 发 生 游 出 时 选择 取 饱 
和 值 0。 

为 了 方便 后 续 的 通道 融合 ， 将 深度 差 值 图像 进 
行 灰 度 映射 以 方便 融合 。 由 于 深度 图 像 是 一 种 单 通 
道 的 灰 度 图 像 ， 像 素 点 的 数据 类 型 为 uint16。 为 了 
便于 各 种 算法 和 神经 网 络 的 使 用 ， 需 要 将 深度 图 像 
进行 灰 度 映射 。 灰 度 映射 是 通过 某 种 映射 规则 ， 将 
原始 的 灰 度 像素 点 根据 此 种 映射 规则 赋予 1 个 新 的 
灰 度 值 ， 使 整体 的 像素 分 布 保持 不 变 。 在 研究 中 ， 
使 用 公式 (1) 作为 映射 规则 ， 将 uint16 的 深度 图 
像 映 射 为 uint8 的 灰 度 图 像 ， 使 每 个 像素 点 的 范围 
保持 在 0~255 的 区 间 范 围 内 。 
Img — IME min 
1M8 max 一 IME min 

式 中 : img 为 原 图 像 像 素 值 ，img,, 为 原 图 像 中 
最 大 像素 点 的 值 ，img 为 原 图 像 最 小 像素 点 的 值 ; 
newimg 为 映射 后 的 新 图 像 。 
13.3 时空 流 融合 特征 图 像 生 成 

奶牛 深度 差 值 图 像 序列 体现 了 奶牛 行走 过 程 中 


newimg = x 255 (1) 
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的 垂直 方向 上 的 空间 变化 特征 ; 奶牛 光 流 图 像 序列 
体现 了 奶牛 行走 过 程 中 的 平面 方向 上 的 时 间 变 化 轨 
迹 。 在 研究 中 ， 将 深度 差 值 图 像 与 光 流 图 像 进行 通 
道 间 融合 ， 将 两 种 模 态 的 数据 融合 互补 ， 融合 方法 


二 |- 国 为 利用 OpenCV 库 中 的 merge( ) 函 数 进行 通道 合并 ， 


以 此 提取 奶牛 时 空 流 融 合 特征 图 像 ， 融 合 后 的 部 分 
图 像 如 图 6 所 示 。 该 时 空 流 融 合 图 像 拥 有 奶牛 行走 
过 程 中 的 时 空 特征 ， 再 通过 后 续 的 模型 进行 特征 提 
取 和 建 模 ， 来 实现 有 效 的 奶牛 踊 行 检测 。 


图 6 融合 时 空 流 特 征 模 式 的 奶牛 俯视 图 像 


Fig. 6 Top view images of dairy cows fused with 


spatiotemporal flow feature patterns 


1.4 奶牛 跨行 检测 模型 构建 


基于 Cow-TSM 的 奶牛 踊 行 检测 模型 结构 如 网 7 
所 示 。 输 入 后 的 主干 部 分 包括 4 个 stage: stage 1 和 
stage 2 利用 大 量 深度 可 分 离 卷 积 提取 特征 的 同时 减 
少 模型 参数 ; 在 stage 3 使 用 融合 了 轻 量 级 时 序 注意 
力 (Lightweight Temporal Attention, LTA) . Hs} TH] (im 
移 模 块 (Temporal Shift Module, TSM) 、 深 度 卷 积 
(Depthwise Convolution, DW Conv), CBAM ™ 7 
意 力 机 制 和 重 参 卷 积 (Re-parameterization Convolu- 
tion, REP Conv) 的 LIDR 模块 以 期 利用 2D 卷 积 操 
作 实 现 近 似 于 3D 卷 积 的 效果 ; stage 4 使 用 残 差 结 
构 的 深度 可 分 离 卷 积 。 接 着 经 过 全 局 平均 池 化 ， 
1X1 卷 积 调整 通道 ， 再 进行 全 局 平均 池 化 ， 全 连接 
和 softmax 输 出 视频 类 别 。 


x2 x2 x2 
之 2 2 E E] 
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© Ss ob 
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图 7 Cow-TSM 网 络 结构 


Fig. 7 Network structure of Cow-TSM 


模型 主体 由 PP-TSMv2 网 络 构成 ， 该 网 络 是 百 
度 飞 浆 在 TSM 模 块 之 上 改进 的 一 种 工业 落地 的 


2D 网 络 ， 与 TSM 相 比 ， 有 效 地 改善 了 原 模型 的 推 
理 精 度 ， 推 理 速度 也 得 到 了 较 大 的 提升 。PP- 
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TSMv2 网 络 将 LTA、TSM 模块 和 带 有 重 参 的 深度 
可 分 离 卷 积 进行 组 合 。 本 研究 在 此 基础 上 ， 在 特征 
提取 时 添加 CBAM 注意 力 机 制 ， 如 图 8 所 示 。 首 
FE, LTA 模块 通过 利用 全 局 平均 池 化 和 FC 层 提 取 
全 局 尺度 的 时 序 注意 力 。 其 次 ,将 LIA 模块 的 具有 
全 局 时 序 信息 的 输出 经 过 TSM 再 进行 时 序 建 模 。 
最 后 ， 利 用 深度 可 分 离 卷 积 进行 特征 提取 ， 深 度 可 
分 离 卷 积 和 重 参 技术 能 够 有 效 地 降低 模型 参数 量 和 
推理 成 本 ， 并 结合 CBAM 注意 力 机 制 对 特征 向 量 进 
行 通道 和 空间 加 权 ， 来 提升 该 模块 中 特征 提取 的 
效果 。 


1.4.1 时 间 偏 移 模块 


TSM 的 核心 思想 为 让 特征 张 量 在 时 间 维 度 的 方 
向 上 来 移动 相 邻 通道 来 实现 相 邻 由 之 间 的 信息 交 
互 ， 其 本 身 作 为 一 个 可 插 拔 的 模块 可 以 很 方便 地 揪 
入 2D 卷 积 中 ， 而 不 显著 增加 计算 量 和 参数 ， 使 其 
兼 具 2D 卷 积 和 3D 卷 积 的 优势 。 图 9a 为 模块 输入 的 
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图 8 LTDR 模块 
Fig. 8 LIDR module 


原始 张 量 ， 每 一 种 颜色 代表 不 同时 间 点 的 图 像 帧 。 
接着 ， 在 时 间 维 度 上 将 部 分 通道 向 下 偏 移 ， 再 将 相 
邻 的 部 分 通道 向 上 偏 移 ， 原 始 位 置 用 0 补 齐 ， 突 出 
的 通道 截断 舍弃 ， 如 图 9%b 所 示 。 此 时 在 通道 维度 
上 ， 当 前 帧 包含 了 前 后 相 邻 帧 的 信息 ， 实 现时 间 维 
度 上 的 信息 交互 。 在 实时 推理 时 ， 由 于 下 一 帧 无 法 
被 预知 ， 因 此 只 能 将 上 一 帧 沿 着 时 间 维 度 往 下 偏 
移 ， 即 由 过 去 向 未 来 ， 而 不 能 将 下 一 帧 沿 着 时 间 维 
度 往 上 偏 移 ， 如 图 9c 所 示 。 
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图 9 TSM 结构 
Fig.9 The structure of TSM 


1.4.2 CBAM 注意 力 机 制 

在 提取 奶牛 时 空 流 融 合 图 像 序列 后 ， 由 于 图 像 
的 不 同 通道 代表 着 不 同 的 模 态 ， 为 了 更 好 地 利用 图 
像 中 的 时 空 流 信息 ， 利 用 通道 加 权 来 给 不 同 的 模 态 
赋予 不 同 权重 是 十 分 关键 的 。 此 外 ， 在 俯视 视角 下 
让 模型 提取 跨行 奶牛 关键 运动 特征 ， 往 往 还 需要 模 
型 能 够 注意 到 关键 区 域 。CBAM 注意 力 模 块 同时 包 
含 了 通道 和 空间 两 种 注意 力 机 制 ， 分 别 实 现 表 征 不 
同 通道 的 权重 ， 以 及 提取 空间 像素 间 不 同位 置 的 关 
键 信息 。 模 块 先 对 输入 特征 向 量 先进 行 通道 注意 力 
加 权 ， 并 于 输入 特征 向 量 相 乘 ， 接 着 进行 空间 注意 
力 加 权 ， 并 与 通道 加 权 后 的 特征 向 量 进行 乘积 
运算 。 
1.5 评价 指标 

TP (True Positives) 是 模型 预测 的 真实 值 为 正 
的 正 样本 数量 ; FP (False Positives) 是 模型 预测 的 
真实 值 为 负 的 正 样本 数量 ; FN (False Negatives ) 


是 模型 预测 的 真实 值 为 正 的 负 样 本 数量 ; TN 
(True Negatives) 是 模型 预测 的 真实 值 为 负 的 负 样 
本 的 数量 。 

准确 率 (Accuracy) 是 所 有 预测 正确 的 样本 对 
所 有 正 样本 和 负 样 本 的 总 和 的 比率 ; Accuracy 的 计 
算 如 公式 (2). 


TP + IN 
Accuracy = 


TP + FP + TN + FN 
2 结果 与 分 析 
2.1 实验 环境 与 模型 参数 设置 


CPU 处理 器 型 号 为 Intel (R) Xeon (R) CPU 
E5-2678 v3 @2.50 GHz， 系 统 为 Ubuntu 18.04， 显 
卡 为 RIX 3090， 显 存 大 小 24 GB, Python 版 本 为 
3.8， 代 码 编写 框架 为 Pytorch 1.12.0。 在 训练 时 ， 
动量 系数 为 0.9， 初 始 学 习 率 设置 为 0.01， 使 用 余 
弦 退 火 调 整 学 习 率 ， 权 重 衰 减 系 数 为 0.000 1， 迭代 
次 数 设 置 为 130 轮 次 。 


(2) 
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牛 光 流 图 像 。 奶 牛 光 流 图 像 是 一 种 二 通道 灰 度 图 
像 ， 由 两 个 单 通道 图 像 拼 接 得 到 ， 分 别 表征 了 奶牛 
在 横 、 纵 方向 上 的 位 移 变 化 ， 其 中 变化 程度 较 大 的 
部 分 颜色 较 深 。 在 图 10 的 结果 中 ， 将 二 通道 光 流 
图 像 进行 了 三 通道 映射 来 方便 展示 。 


2.2 实验 结果 与 分 析 


2.2.1 光 流 提取 效果 

如 图 10 所 示 ， 在 生成 每 头 奶牛 的 光 流 图 像 时 ， 
利用 此 奶牛 的 两 张 相 邻 灰 度 图 像 作 为 输入 ， 经 过 微 
调 的 FlowNet2.0 网络 进行 预测 ， 输 出 对 应 的 一 帧 奶 
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Fig. 10 Optical flow visualization of grayscale image extraction of dairy cows 


FlowNet 2.0 与 传统 的 稠密 光 流 提取 算法 进行 推 
理 时 间 的 对 比 ， 以 Farneback 算法 为 例 ， 其 提取 一 
张 光 流 图 像 的 平均 推理 时 间 平 均 为 0.21 s，FlowNet 
2.0 约 为 0.031s， 证 明基 于 FlowNet 2.0 的 光 流 提取 
算法 比 传统 的 稠密 光 流 提取 算法 在 时 效 性 上 更 加 
优越 。 
2.2.2 ”时 空 流 融 合 特征 有 效 性 分 析 

Cow-TSM 模 型 训练 损失 曲线 如 图 11 所 示 ， 模 
型 训练 轮 数 设置 为 150， 从 损失 曲线 图 中 可 以 看 出 ， 
模型 在 120 轮 次 左右 收敛 。 
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Fig. 11 Cow-TSM model training loss curve for dairy cow 


lameness detection 

为 了 验证 时 空 流 融合 特征 的 有 效 性 ， 分 别 将 奶 

牛 光 流 图 像 序列 、 深 度 图 像 序列 、 深 度 差 值 图 像 序 
列 和 时 空 流 融 合 特征 图 像 序 列 作 为 Cow-TSM 模型 


的 输入 ， 进 行 实验 比 较 ， 结 果 如 表 1 所 示 。 当 模型 
的 输入 为 深度 图 像 序 列 时 ， 比 光 流 图 像 序列 的 准确 
度 高 7.5%， 这 是 因为 在 俯视 视角 下 踊 行 奶牛 的 主要 
寺 征 如 点 头 、 四 肢 运动 不 规律 比较 容易 被 这 度 岁 像 
捕获 ， 因 此 垂直 维度 上 的 不 规则 运动 特征 比 平面 维 
度 上 的 位 移 特 征 能 更 罕 出 地 区 分 出 奶牛 是 否 路 行 。 
当 模 型 的 输入 为 深度 差 值 图 像 序列 时 ， 准 确 度 比 深 
度 图 像 序列 高 出 1.3 个 百分点 ， 深 度 差 值 表征 了 奶 
牛 的 躯体 表面 在 高 度 方 向 上 的 相对 位 移 ， 这 些 位 移 
包括 了 奶牛 头 部 和 背部 关键 部 位 如 髋 关节 的 高 度 变 
化 。 与 原始 深度 图 像 相 比 ， 作 差 能 够 减少 因 摄 像 关 
高 度 不 一 致 带 来 的 误 检 问题 ， 拥 有 更 强 的 鲁 棒 性 。 
把 经 过 光 流 图 像 和 深度 差 值 图 像 融 合 后 的 时 空 流 融 
合 特征 图 像 序列 作为 输入 时 ， 模 型 的 预测 准确 度 达 
到 88.7%， 表 现 最 佳 ， 证 明了 时 间 流 特征 和 空间 流 
特征 融合 的 有 效 性 。 

表 1 奶牛 跨行 检测 研究 不 同 输入 图 像 序列 下 的 模型 预测 表现 


Table 1 Comparison of prediction performances of models with 


different input images sequences for dairy cow lameness detec- 


tion research 


模型 输入 序列 Accuracy/% — Precision!% — Recall/% 
光 流 图 像 序列 76.7 75.3 77.8 
深度 图 像 序列 83.4 81.3 84.6 
深度 差 值 图 像 序列 84.6 83.2 85.1 
时 空 流 融 合 特征 图 像 序列 88.7 87.3 89.2 
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为 了 保证 模型 的 鲁 棒 性 ， 在 模型 训练 时 使 用 5 
折 交 叉 验 证 ， 结 果 如 图 12 所 示 。 将 数据 集 分 成 互 
斥 的 5 份 ， 其 中 的 4 份 作为 训练 集 进行 模型 的 训练 ， 
剩 下 的 1 份 作为 测试 集 。 经 过 一 次 训练 后 ， 将 前 4 
份 依次 作为 测试 集 ， 进 行 5 次 训练 ， 然 后 对 5 次 训 
练 结果 取 平 均 ， 得 到 最 终 的 模型 表现 。 


1.0F EE Accurac = = 


图 12 奶牛 跨行 检测 模型 Cow-TSM 5 折 交 又 验证 
Fig. 12 5 folders cross validation of Cow-TSM model for lame- 


ness detection in dairy cows 


2.2.3 不 同 注意 力 机 制 对 比 

为 了 验证 本 研究 所 使 用 的 CBAM 注 意 力 对 所 提 
出 模型 的 有 效 性 ， 将 其 分 别 与 通道 注意 力 
(Squeeze-and-Excitation, SE) 模块 、 坐 标注 意 力 
(Coordinate Attention, CA) 模块 和 卷 积 核 注 意 力 
(Selective Kernel, SK) 模块 进行 比较 ， 结果 如 表 2 
所 示 ， 可 以 得 出 ， 融 合 CBAM 模 块 的 模型 预测 精度 
为 88.7%，CA 模块 的 精度 为 87.1%，SK 模 块 的 精 
度 为 86.4%，SE 模 块 为 PP-TSMv2 模 型 原 有 的 注意 


慢 支 路 的 SlowFast 模 型 和 基于 Transfomer 架构 的 
TimesFormer 模 型 在 准确 度 、 参 数量 和 推理 时 间 上 
进行 了 对 比 ， 由 于 输入 为 图 像 帧 序列 ， 不 包括 视频 
解码 所 消耗 的 时 间 ， 因 此 本 实验 的 推理 时 间 仪 为 模 
型 的 推理 时 间 。 

表 3 展 示 了 Cow-TSM 模 型 与 上 述 视 频 动作 分 
类 网 络 的 对 比 ， 由 表 3 可 知 ，Cow-TSM 模型 在 精度 
上 优 于 主流 的 基于 3D 卷 积 的 SlowFast 模 型 ， 提 升 
1.6 个 百分点 ， 这 是 因为 使 用 时 序 位 移 模块 能 在 2D 
卷 积 操作 的 基础 上 实现 接近 3D 卷 积 的 性 能 ， 并 且 
更 加 注重 通道 与 空间 加 权能 力 。 其 次 ， 与 其 他 网 络 
相 比 ， 性 能 也 能 保持 在 最 佳 。 通 过 结合 轻 量 级 全 局 
注意 力 模 块 LIA 与 TSM 模 块 ， 不 仅 利用 到 了 TSM 
模块 的 时 序 信息 ， 也 可 以 捕获 全 局 时 序 信息 的 建 模 
能 力 ， 保 持 优 秀 的 特征 提取 能 力 。Cow-TSM 模型 
所 消耗 的 推理 时 间 和 占用 的 参数 量 均 为 最 低 ， 分 别 
为 0.046s 和 22 M。Cow-TSM 的 骨干 网 络 以 轻 量 级 
卷 积 神经 网 络 PP-LCNetv2 为 基础 构建 ， 通 过 使 用 
深度 可 分 离 卷 积 和 重 参 技 术 使 得 模型 的 复杂 度 大 大 
降低 。 综 上 所 述 ， 在 保证 准确 率 的 前 提 下 充分 考虑 
推理 速度 与 模型 参数 占 比 ， 本 研究 提出 的 模型 十 分 
适合 部 署 在 算 力 受 限 的 边缘 设备 上 。 

表 3 奶牛 跨行 检测 研究 中 不 同 模型 预测 结果 比较 


Table 3 Comparison of prediction results of different models 


for lameness detection in dairy cows 


力 机 制 ， 其 预测 精度 为 87.6%。 综 上 可 以 得 出 ， 
CBAM 注意 力 机 制 在 本 研究 中 表现 最 佳 。 这 是 因 
为 ， 模 型 的 输入 图 像 序 列 由 两 种 模 态 的 图 像 按 通道 
拼接 ， 因 此 CBAM 模 块 的 通道 加 权 对 于 模型 在 本 研 
究 数 据 集 上 的 表现 至 关 重 要 。 此 外 ，CBAM 模 块 中 
的 空间 注意 能 够 有 效 地 捕捉 奶牛 表面 关键 部 位 的 起 
伏 信息 ， 如 奶牛 头 贷 部 和 四 及 与 背部 连接 处 。 因 
此 ，Cow-TSM 模型 更 适合 于 检测 奶牛 踊 行 。 
表 2 奶牛 跨行 检测 研究 中 不 同 注意 力 机 制 下 的 模型 预测 表现 
Table 2 Comparison of prediction performance of models 
with different attention mechanisms for lameness detection 


in dairy cows 


模型 Accuracy/% 推理 时 间 /s 参数 量 /M 
TSM 66.7 0.063 141 
PP-TSM 84.8 0.096 73 
SlowFast 87.1 0.176 200 
TimesFormer 85.7 0.933 697 
PP-TSMv2 86.6 0.041 20 
Cow-TSM 88.7 0.046 22 


2.2.5 “与 现 有 跨行 检测 方法 对 比 

为 了 验证 本 研究 所 提出 方法 的 有 效 性 和 可 行 
性 ， 与 现 有 国内 外 的 研究 方法 进行 了 比较 。 这 些 研 
究 中 同时 包括 了 侧面 视角 和 俯视 视角 的 奶牛 跨行 检 
测 方 法 ， 对 比 结果 如 表 4 所 示 。 基 于 侧 视 视角 的 中 
行 检测 方法 的 精度 普遍 较 高 ， 这 是 因为 侧面 视角 可 


模型 PP-TSMv2+CA PP-TSMv2+SE PP-TSMv2+SK Cow-TSM 


Accuracy/% 87.1 87.6 86.4 88.7 


提取 特征 较 多 ， 如 奶牛 肢 蹄 的 运动 特征 ， 这 也 是 对 


2.2.4 ”不同 视 频 动 作 分 类 网 络 对 比 
为 了 验证 本 人 研究 所 构建 的 跨行 检测 模型 的 有 效 
性 ， 本 研究 还 与 TSM 模 型 、PP-TSM 模 型 、 基 于 快 


奶牛 跨行 检测 而 言 最 关键 的 特征 。 俯 视 视 角 下 的 精 
度 整体 上 较为 逊色 ， 但 是 其 更 适合 于 在 牛 场 中 实际 
部 署 。 本 研究 的 方法 与 同 为 俯视 视角 下 的 文献 
[16] 相 比 ， 预 测 精度 提升 幅度 为 12.23%， 这 是 因 
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为 文献 [16] 中 使 用 RGB 或 深度 单一 模 态 进行 建 
模 ， 导 致 特征 提取 的 能 力 较 弱 ， 并 且 在 俯视 视角 下 
RGB 模 态 主要 注重 于 表 观 纹理 信息 ， 对 于 挖掘 踊 行 
相关 特征 贡献 较 弱 。 而 本 研究 通过 融合 时 间 流 与 空 
间 流 特征 ， 能 够 更 全 面 地 挖掘 奶牛 在 运动 过 程 中 服 
体 运 动 对 跨行 识别 时 的 贡献 。 与 文献 [15] 相 比 ， 
本 人 研究 的 方法 的 预测 精度 落后 7%。 文 献 [15] X 
法 通过 计算 机 视觉 的 手段 提取 奶牛 髋 关节 部 位 的 高 
度 变化 ， 髋 关节 是 奶牛 鸳 干 与 股 蹄 直接 连接 的 关键 
部 位 ， 通 过 感知 该 部 位 的 高 度 变化 来 表征 跨行 奶牛 
在 运动 过 程 中 的 上 股 蹄 运动 不 规律 性 。 但 该 方法 与 本 
人 研究 方法 相 比 ， 艇 关节 部 位 定位 过 程 较为 复杂 ， 而 
算法 准确 度 十 分 依赖 通关 节 的 定位 准确 度 ， 并 且 在 
通过 希 尔 伯 特 变换 分 析 髋 关节 运动 曲线 的 相位 时 自 
动 化 程度 较 弱 。 本 研究 方法 的 预 处 理 较 少 ， 利 用 目 
标 检测 模型 定位 到 奶牛 躯体 后 ， 再 通过 深度 学 习 模 
型 提取 整体 时 空 流 特征 ， 不 会 因为 关键 部 位 提取 效 
果 较 差 时 导致 模型 检测 能 力 的 下 降 。 此 外 ， 该 文献 
中 的 实验 样本 数目 较 少 ， 本 研究 的 实验 数据 集 的 规 
模 是 其 7.8 倍 ， 并 且 来 自 于 不 同 的 通道 ， 环 境 更 为 
复杂 ， 因 此 本 研究 模型 的 鲁 棱 性 较 高 ， 预 测 精度 较 
为 稳定 。 

表 4 本 研究 提出 的 融合 时 空 流 融合 特征 的 方法 与 现 有 方法 

对 比 


Table 4 Rusults comparison between the porposed method and 


other methods 


模型 Accuracyl% ”数据 集 视频 规模 /个 ”检测 视角 
Li 等 "4 97.20 680 侧 视 
Jiang 等 1 96.61 243 侧 视 
Arazo 等 19 84.56 869 侧 视 
Arazo 等 1!9 76.47 864 俯视 
Jabbar “>! 95.70 23 俯视 
融合 时 空 流 特征 的 、 
A eta 88.70 180 FAN 
DEBATEM 俯视 
综 上 所 述 ， 虽然 俯视 视角 下 的 奶牛 跋 行 检测 方 


法 的 精度 有 待 进一步 的 提升 ,但 此 类 方法 不 会 受到 
多 头 奶牛 和 栏杆 遮挡 等 问题 干扰 ， 对 于 摄像 头 的 安 
装 环境 要 求 较 低 ， 不 需要 在 牧场 现 有 的 基础 设施 之 
上 提出 更 多 的 要 求 ， 并 且 易 与 其 他 奶牛 智能 感知 任 
务 进行 联动 ， 如 奶牛 体重 估计 和 奶牛 体 况 评分 等 。 


3 结 论 


针对 俯视 视角 下 的 复杂 场景 导致 单一 模 态 特征 
效果 较 差 的 问题 ， 本 研究 提出 了 一 种 基于 时 空 流 融 


合 特征 的 奶牛 跨行 检测 方法 ， 利 用 光 流 提取 网 络 提 
取 时 间 流 特征 图 像 ， 利 用 深度 差 值 图 像 提取 空间 流 
寺 征 图 像 ， 并 进行 通道 融合 构建 时 空 流 融 合 图 像 序 
列 。 构 建 奶 牛 跨行 检测 模型 Cow-TSM， 对 时 空 流 
融合 图 像 数 据 集 进行 训练 和 测试 ， 设 计 实 验 探 究 不 
同 输入 模 态 图 像 、 不 同 注意 力 机 制 和 不 同 模型 对 奶 
牛 跷 行 检测 的 影响 ， 并 与 现 有 跨行 检测 方法 进行 了 
比较 。 本 研究 提出 的 奶牛 跨行 检测 方法 检测 准确 度 
达到 88.7%， 模 型 推理 时 间 为 0.046 s， 模 型 大 小 为 
22 M。 结 果 证 明 在 俯视 视角 下 ， 通 过 提取 时 空 流 融 
合 特征 进行 奶牛 踊 行 检测 是 有 效 的 。 

但 本 研究 所 提出 的 算法 仍 有 一 定 的 局 限 性 ， 在 
未 来 ， 需 要 加 入 更 多 早期 跨行 的 奶牛 样本 ， 并 进 一 
步 挖掘 俯视 视角 下 奶牛 踊 行 运动 特征 ， 以 完善 本 研 
究 的 识别 算法 。 此 外 ， 实 验 数据 缺乏 光照 型 暗 或 者 
夜间 环境 中 的 奶牛 数据 ， 因 此 需要 针对 不 同 光 照 条 
件 的 数据 调整 本 研究 的 模型 训练 策略 ， 以 得 到 更 加 
鲁 棒 的 检测 模型 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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Abstract: 
[Objective] The detection of lameness in dairy cows is an important issue that needs to be solved urgently in the process of large-scale 


dairy farming. Timely detection and effective intervention can reduce the culling rate of young dairy cows, which has important practi- 


cal significance for increasing the milk production of dairy cows and improving the economic benefits of pastures. Due to the low effi- 


ciency and low degree of automation of traditional manual detection and contact sensor detection, the mainstream cow lameness detec- 


tion method is mainly based on computer vision. The detection perspective of existing computer vision-based cow lameness detection 


methods is mainly side view, but the side view perspective has limitations that are difficult to eliminate. In the actual detection pro- 


cess, there are problems such as cows blocking each other and difficulty in deployment. The cow lameness detection method from the 


top view will not be difficult to use on the farm due to occlusion problems. The aim is to solve the occlusion problem under the 
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side view. 

[Methods] In order to fully explore the movement undulations of the trunk of the cow and the movement information in the time di- 
mension during the walking process of the cow, a cow lameness detection method was proposed from a top view based on fused spa- 
tiotemporal flow features. By analyzing the height changes of the lame cow in the depth video stream during movement, a spatial 
stream feature image sequence was constructed. By analyzing the instantaneous speed of the lame cow's body moving forward and 
swaying left and right when walking, optical flow was used to capture the instantaneous speed of the cow's movement, and a time 
flow characteristic image sequence was constructed. The spatial flow and time flow features were combined to construct a fused spa- 
tiotemporal flow feature image sequence. Different from traditional image classification tasks, the image sequence of cows walking in- 
cludes features in both time and space dimensions. There would be a certain distinction between lame cows and non-lame cows due to 
their related postures and walking speeds when walking, so using video information analysis was feasible to characterize lameness as 
a behavior. The video action classification network could effectively model the spatiotemporal information in the input image se- 
quence and output the corresponding category in the predicted result. The attention module Convolutional Block Attention Module 
(CBAM) was used to improve the PP-TSMv2 video action classification network and build the Cow-TSM cow lameness detection 
model. The CBAM module could perform channel weighting on different modes of cows, while paying attention to the weights be- 
tween pixels to improve the model's feature extraction capabilities. Finally, cow lameness experiments were conducted on different 
modalities, different attention mechanisms, different video action classification networks and comparison of existing methods. The da- 
ta was used for cow lameness included a total of 180 video streams of cows walking. Each video was decomposed into 100—400 
frames. The ratio of the number of video segments of lame cows and normal cows was 1:1. For the feature extraction of cow lameness 
from the top view, RGB images had less extractable information, so this work mainly used depth video streams. 

[Results and Discussions] In this study, a total of 180 segments of cow image sequence data were acquired and processed, including 90 
lame cows and 90 non-lame cows with a 1:1 ratio of video segments, and the prediction accuracy of automatic detection method for 
dairy cow lameness based on fusion of spatiotemporal stream features reaches 88.7%, the model size was 22 M, and the offline infer- 
ence time was 0.046 s. The prediction accuracy of the common mainstream video action classification models TSM, PP-TSM, Slow- 
Fast and TimesFormer models on the data set of automatic detection method for dairy cow lameness based on fusion of spatiotemporal 
stream features reached 66.7%, 84.8%, 87.1% and 85.7%, respectively. The comprehensive performance of the improved Cow-TSM 
model in this paper was the most. At the same time, the recognition accuracy of the fused spatiotemporal flow feature image was im- 
proved by 12% and 4.1%, respectively, compared with the temporal mode and spatial mode, which proved the effectiveness of spatio- 
temporal flow fusion in this method. By conducting ablation experiments on different attention mechanisms of SE, SK, CA and 
CBAM, it was proved that the CBAM attention mechanism used has the best effect on the data of automatic detection method for 
dairy cow lameness based on fusion of spatiotemporal stream features. The channel attention in CBAM had a better effect on fused 
spatiotemporal flow data, and the spatial attention could also focus on the key spatial information in cow images. Finally, comparisons 
were made with existing lameness detection methods, including different methods from side view and top view. Compared with exist- 
ing methods in the side-view perspective, the prediction accuracy of automatic detection method for dairy cow lameness based on fu- 
sion of spatiotemporal stream features was slightly lower, because the side-view perspective had more effective cow lameness charac- 
teristics. Compared with the method from the top view, a novel fused spatiotemporal flow feature detection method with better perfor- 
mance and practicability was proposed. 

[Conclusions] This method can avoid the occlusion problem of detecting lame cows from the side view, and at the same time improves 
the prediction accuracy of the detection method from the top view. It is of great significance for reducing the incidence of lameness in 
cows and improving the economic benefits of the pasture, and meets the needs of large-scale construction of the pasture. 


Key words: dairy cow lameness detection; spatiotemporal fusion; video action classification; depth image; attention mechanism; TSM 


Foundation items: National Natural Science Foundation of China (32072788); Key Research and Development Program of Heilongji- 
ang Province (2022ZX01A24); National Key Research and Development Program of China (2023 YFD2000700); Project Supported 
by Scientific Research Platform of East University of Heilongjiang (PTZCXM2404) 


Biography: DAI Xin, E-mail: daixin@neau.edu.cn 
* Corresponding author: 1. DAI Baisheng, E-mail:bsdai@neau.edu.cn; 2. SHEN Weizheng, E-mail: wzshen@neau.edu.cn 


(登录 www.smartag.net.cn 免费 获取 电子 版 全 文 ) 


